谢 琳:大数据时代个人信息边界的界定
个人信息受“识别性”和“相关性”两方面的限制,即当某特定的人可被识别时,与该人有关的信息才属于个人信息。在大数据时代,“识别性”和“相关性”边界逐步扩大。在识别性方面,直接识别标准已向间接识别标准过渡,且大数据识别技术的进步和数据的海量化极大提高了信息的识别可能性,导致匿名化的崩溃。在相关性方面,随着大数据画像等分析技术的发展,许多原本不能反映个体特征的信息也可能成为个人信息。对此,个人信息应采用最宽泛的定义,只要存在识别和相关的可能性,均应纳入个人信息的范畴,并对个人信息进行风险层级的划分,以相应风险层级确立相应的合规义务,从而避免个人信息保护制度因保护范围过宽而难以践行,同时也为数据控制者采取相应的保障措施提供有效激励。
大数据时代个人信息边界的界定
撰文|谢 琳谢琳,中山大学法学院副教授。
在大数据时代,随着大数据分析技术的迅猛发展,制定系统全面的个人信息保护法迫在眉睫。近年来,欧盟各国、日本、新加坡等纷纷制定或修订其个人信息保护法。我国全国人大常委会近期也已将个人信息保护法列入立法规则。其中,个人信息边界的界定是制定个人信息保护法的基本问题。只有当某个信息属于个人信息时,该信息才受保护。然而,在大数据时代,个人信息的边界呈现逐步泛化的趋势,难以清楚界定。能否有效应对大数据时代个人信息边界扩大的问题,直接决定了个人信息保护制度能否有效运行。本文试图对个人信息边界进行探讨,并构建相应的风险保护路径。
一、个人信息概念的界定
个人信息以可识别性作为其赋权基础。影响深远的世界经合组织(OECD)隐私指南、亚太隐私框架以及欧盟1995年个人数据保护指令均将个人信息定义为“与已识别或可识别的人有关的任何信息”。该定义可理解为,当某特定的人可被识别时,与该人有关的任何信息即为个人信息。
美国国家标准与技术研究院颁布的《个人可识别信息的保密性保护指南》进一步指出,个人信息可分为两种类型的信息,即识别信息和关联信息。识别信息是指用于识别或追踪某个特定的人的信息,例如姓名、社会保障号码、出生日期、生物信息等;关联信息是指与该人相关联的其他任何信息,例如医疗、教育、金融和工作信息等。举例而言,手机号码是识别信息,而关于该手机号码的每月话费、通话时长、开机状态等则属于关联信息;微信号是识别信息,而该微信号上的聊天记录、点赞信息等则属于关联信息。
除识别信息以外,对关联信息也应予以保护。关联信息能够反映个人的个体特征,具有应受保护的人格利益。我国首部涉及个人信息保护的法律《网络安全法》将个人信息定义为“能够单独或者与其他信息结合识别自然人个人身份的各种信息”。该定义并没有明确将关联信息涵盖在内。然而我国相关判例及专家意见倾向性认为,对于该定义应做广义解释,不仅包括“识别自然人个人身份”的识别信息,还应包括与该可识别的自然人相关的关联信息。比如,近期我国最高人民法院判决,用户手机的开关机状态反映了用户生活状态或工作状态的转变,移动服务的开机提醒业务未经被叫人同意向呼叫人发送短信告知被叫人手机已开机,使呼叫人可对被叫人可能身处的状态作出合理预见或推测,这一行为侵犯了个人信息安全。洪延青也指出,对我国网络安全法的“个人身份”应做广义解释,不仅包括个人的社会身份,如姓名、身份证号码等,还应包括反映个人的个体特征的身份(即关联信息),如抑郁症等。
为保护关联信息,我国2018年5月1日开始实施的推荐性国家标准《个人信息安全规范》第3.1条专门增加了“反映特定自然人活动情况的各种信息”。而我国以往的其他相关规定也或多或少涵盖了关联信息的某些类型。譬如最高人民法院、最高人民检察院在《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》中增列了“财产状况、行踪轨迹”,工业和信息化部颁布的《电信和互联网用户个人信息保护规定》涵盖了“识别用户使用服务的时间、地点等信息”。但上述规定采用的是“活动情况”“财产状况”等具体化描述,仍无法全面涵盖所有需要保护的个人信息类型。对此,我国可考虑采用世界主流定义的表述——“与已识别或可识别的人有关的任何信息”。该定义的“任何信息”的表述就是为了给个人信息设立一个宽泛而周延的概念,其中既包括客观信息,如血液中存在的某些物质、指纹等,也包括主观信息,如小孩的画画、专家的意见或评价等。
根据该定义,个人信息的保护范围应受两方面的限制:第一,该人应该是已被识别或可被识别的(识别性);第二,信息应与该人有关(相关性)。在大数据时代,“识别性”和“相关性”的边界日益泛化,还需对此进行重新界定。
识别性包括“已识别”和“可识别”两种情况。“已识别”也称直接识别,指无需借助其他信息即可识别出某一特定的人,例如身份证号码。而“可识别”则为间接识别,指存在识别的可能性,与其他信息相结合能够识别该人。
早期观点倾向性认为仅需保护直接识别信息。然而,在大数据时代,人们愈来愈倚重各种各样的设备与外界产生联系,IP地址、cookie、手机MAC地址、IMEI码等设备信息是否具有识别性的问题引起了巨大争议。直接识别标准的支持者认为,仅识别至某一设备,而并非识别本人,不属于个人信息。例如,在我国2015年cookie隐私第一案中,二审法院便认为,“百度网讯公司个性化推荐服务收集和推送信息的终端是浏览器”,而并非是原告本人。在2015年英国谷歌定向行为广告案中,被告谷歌主张,依托浏览器产生的信息不是个人信息,并没有识别用户的姓名。理由类似于,车牌号码并不代表本人,除非已经查询到本人的身份,否则追踪该车的行踪并不受个人信息保护制度的限制。
但实际上,设备信息存在与其他信息相结合进行识别的可能性。首先,设备信息本身有可能与其他识别信息相结合识别出该特定的人。比如对于谷歌用户的cookie识别符,谷歌有可能结合谷歌Gmail账号等信息识别出该用户。再如IP地址,欧盟29条工作组早在2008年意见中就明确指出,虽然IP地址在多数情况下不能由搜索引擎所识别,但网络连接提供商(如宽带服务提供商)是拥有IP地址背后的用户身份数据的。法律执行和国家安全官方机构能够访问这些身份数据,在某些欧盟成员国甚至能在民事诉讼中调取这些数据,例如针对网络用户下载盗版版权作品的行为,版权权利人可提起版权侵权民事诉讼,要求网络连接提供商披露IP地址背后的用户身份信息。
其次,通过对该设备所产生的关联信息(如搜索、浏览记录等)进行用户画像分析(Profiling),也有可能识别出该用户。cookie等设备信息是具有唯一指向性的识别符(Unique Identifier),通过这个识别符可以将该浏览历史与某个设备相联系,进而对该设备上的浏览历史进行叠加,建立用户画像,很可能识别出该人。欧盟2018年5月生效的《通用数据保护条例》(General DataProtection Regulation, GDPR)绪言30也明确指出这一点。欧盟29条工作组2007年在《关于个人数据概念的意见》中更是指出,识别应做广义解释。识别是指在人群中区分出(Single Out)某一特定的人。姓名是区分出某一特定的人的常用方式,但并非是唯一方式,其他识别符也可以区分出某一特定的人。设备背后是用户本身,对某一设备的定向追踪能够识别该设备的行为,呈现出用户的社会、经济、心理等人格属性,并能够基于这些属性影响用户的决定,如定制个性化服务等。对此无需要求必须获悉该人的姓名,只要能区分出某一特定的人即可。
IP地址等设备信息若存在识别的可能性,则存在使用风险,应受到保护。美国早期相关立法和学者只认可直接识别标准,但随着以精准营销为代表的数据分析产业的产生,立法者与学者也意识到精准营销等产业若不受规制,将造成不良影响,因而逐步认可对间接识别信息的保护。为回应精准营销的新商业风险,欧盟《通用数据保护条例》也明确将位置数据(LocationData)、在线识别符号(如IP地址、MAC地址、cookie等)纳入个人数据范围。由此可见,间接识别标准已被世界各国的立法所广为认可。我国网络安全法的“与其他信息结合识别”的表述即是对间接识别标准的认可。
对于识别标准的判定,有两种不同的路径,即相对路径和绝对路径。以欧盟为例,衡量信息是否可识别的标准是,“数据控制者及任何第三方”采用“所有可能合理采用的手段”是否可以将其识别。相对路径认为,“数据控制者及任何第三方”指的是,仅以获得信息的一方自身是否能够识别为判定标准。而绝对路径则认为,只要该信息能够被世界上某个机构所识别,则无论该机构是否实际上能够识别该信息,都视为可被识别。在欧盟2016年Breyer案中,虽然德国法院对判定路径的选择产生巨大争议,但欧洲法院最终支持绝对路径。采用绝对路径的观点具有一定的合理性。如果将相对路径中的不具有可识别性的信息视为非个人信息,则对该信息的收集利用不受个人信息保护制度的规制,有可能导致信息随意流转至具有识别能力的机构手中而被识别,产生隐私风险。
三、匿名化的相对性
采用绝对路径虽然考虑了所有识别的可能性,但也导致匿名化豁免可能没有适用的空间。与可识别相对应的概念就是匿名化。个人信息的定义以“识别”为核心,匿名信息去除了原信息中的部分识别符,使之不再能够被识别,不再属于个人信息,例如去除了姓名和身份证号码后,“1957年生,男,工程师,收入7万”则非个人信息。个人信息保护制度将匿名化信息排除在其规制范围之外,其意义在于为信息流转提供一个可行的渠道。数据控制者可通过对已经收集的数据进行匿名化处理,从而达到自由利用或转让数据的目的。
对于可以随意利用的匿名信息,一般要求匿名化处理具有不可逆转性(Irreversible),不能再被重新识别。然而大数据技术使法律上的绝对匿名化概念变成令人误信的神话。许多研究表明,不存在绝对匿名化的信息。首先,已经匿名化的数据集跟其他数据集相结合,有可能重新识别该人;其次,识别技术的进步也有可能使已经匿名化的信息再次被识别。如果要求识别风险接近为零,则在实践中难以实现,个人信息与匿名信息的区分也似乎已无意义。
对于这个问题的讨论,最后比较一致的结论为,仍应保留匿名化概念。因为匿名化是促进数据流转必不可少的工具,无法割舍。且舍弃匿名化豁免将使数据控制者缺乏必要的动力对信息进行匿名化处理,不利于个人信息保护水平的提高。同时,对匿名信息进行再识别的过程仍然并非是简单且容易的,若再识别过程需要花费与回报不成比例的过多的时间和精力,相关机构也没有足够的动机对其进行识别。
由于匿名化无法完全消除可识别的风险,为了保留匿名化概念的适用空间,某些国家立法开始承认匿名化的相对性,认为是否为匿名化的信息取决于信息的接收方。承认匿名化的相对性也意味着匿名信息并非不再受任何规制,匿名信息的自由流转性受到一定的限制。例如将进行了匿名化处理的信息转让给某个特定的研究机构,由于该研究机构掌握的额外识别信息有限,无法重新识别,该信息仍为匿名信息;但一旦被公开,则有可能重新变成个人信息。因此该匿名化信息仅限于该研究机构使用,不能将其公开或转让给具有可识别条件的第三方。此外,数据控制者还应承诺不再试图识别匿名信息,并应通过合同禁止信息接收者进行再识别。
同时,识别风险的动态变化也增加了新的合规义务。随着数据集的增多和识别技术的发展,当下不可识别的信息,将来未必不可识别,匿名化不再是一个静态的二元化概念,而是一个动态且变化的概念。匿名化的动态变化要求数据控制者定期评估剩余风险;评估对识别风险的控制手段是否足够且匹配;监控并控制识别风险,及时发现新的识别风险;若有新的识别风险,则需要重新进行匿名化处理。
因此,匿名信息多在可控的有限范围内流转,公开披露匿名信息的方式已很难再适用。首先,对于公开披露的信息的可识别性的判定,采用的是绝对标准。由于公开披露的信息可由任何人获得,因此应考虑世界上任何一方识别该信息的可能性。绝对性标准要求很高,欧盟2014年《关于匿名技术的意见》就特别指出,匿名化处理中常见的错误就是将假名信息误认为匿名信息。例如,2006年美国在线(AOL)公司公布其65万用户近三个月的搜索记录,虽然已以数字编号代替AOL的用户名,但仍有网民结合其他数据识别出其中的某些用户。其次,对于公开披露的信息,还应要求未来也不可识别。数据一旦公开则处于完全不可控的状态,无法再对其进行定期审查。欧盟《关于匿名技术的意见》指出,匿名化信息若再被识别则需重新纳入个人信息保护范围。而对已流通至公开领域的信息再进行重新保护,显然是不具有可操作性的。除非是统计类等整合数据,例如“礼拜一轨道X上的乘客数量比礼拜二多160%”,否则很难达到可以一次性公开的匿名化标准。英国2011年“R诉信息专员案”中,英国卫生署拒绝披露晚期堕胎的详细数据,转而披露统计数据,英国高等法院也肯定了卫生署这一做法。
四、相关性的界定
个人信息的“相关性”边界也呈现动态扩大的趋势。传统观点认为,信息应能够反映个体特征,指向特定人的身份、特点或行为,或用于决定、影响该人如何被对待或评价,才属于个人相关。
欧盟29条工作组《关于个人数据概念的意见》将相关性进一步解释为内容相关、目的相关或结果相关,满足任一相关性即属于个人信息。内容相关是指,当信息直接关于(About)该人时,自然为个人相关,譬如对于某个病人的疾病诊断结果自然直接反映了该病人的个人情况。但某些信息表面上是关于某件物件(Objects)的,但在实际使用情形下有可能与个人有关,此类物件往往属于某个人,或对该人产生特别的影响,或在物理上或地理位置上接近该人,此时则需运用“目的相关”或“结果相关”加以判断。
目的或结果相关衡量的是该信息是否被用于“评价、或以特定方式对待或影响该人的现状(Status)或行为”。如果使用者基于这样的目的使用信息,或者没有这样的目的,但实际上对某人的权利或利益产生影响时,则与该人相关。例如,房屋的价格虽然关于房屋,但用于衡量该人需要交纳多少房产税时,则属于个人信息。再如,的士公司的卫星定位系统通过确定每辆的士的位置,将的士分配给距离最近的顾客。严格意义上讲,该系统所使用的位置数据与的士相关,而并非与司机相关。但该系统同时具有追踪的士司机表现的功能,检查他们是否超速、绕道或休息等,因此对个人产生影响,属于个人信息。
目的或结果相关由数据控制者或第三方的使用目的和所产生的影响决定,其边界随着技术的发展呈现出不断扩大的趋势。典型的例子是,早期用户搜索记录并不属于个人信息,但基于搜索记录的海量化整合,数据控制者能够通过用户画像技术描绘出该人的个体特征,并通过个性化推荐服务影响用户行为。有专家指出,互联网搜索记录即便不是内容相关,也应是目的相关或结果相关。2015年英国谷歌定向行为广告案中,法院指出,浏览记录也可视为基于评价用户而使用,属于个人信息。随着大数据分析技术的发展,越来越多的信息通过大数据分析技术加以整合,能够反映出个人的个体特征,个人信息的范围不断扩大。
对相关性宜采用宽泛定义,只要存在用于分析个人特征的可能性,即可属于个人信息。如前文所述,将可随意利用的信息重新纳入保护范围,不具有可操作性。特别是在信息公开环节,信息公开者不再能够有效控制信息的后续使用,而随着信息的海量化整合,这些原本不能反映出个体特征的信息有可能能够反映出个人的特征。对此,不应要求当下的信息须反映出个体特征才受保护,除非是完全不相关的信息,否则任何与个人相关的信息都应属于个人信息。该界限在实践中是能够清晰划分的,譬如专业考试中,试卷答案反映了答题者的专业水平,属于个人信息,但单纯的试卷题目则不属于个人信息;移民档案中关于个人情况的资料属于个人信息,但移民局关于该人是否具有移民资格的纯粹的说理性分析则非个人信息。
五、个人信息的风险层级建构
如上文所述,对于个人信息的概念应采用最宽泛的界定标准,以涵盖所有需要保护的信息。有学者担心,若个人信息的定义过于宽泛,个人信息保护制度将难以落实。采用风险路径(Risk-based Approach),将个人信息的识别性和相关性进行程度上的区分,依据相应的风险程度承担相应的保障义务,可有效解决该问题。
在识别性方面,信息可大体分为已识别信息、可识别信息、匿名信息。由于匿名化风险的存在,匿名化信息与可识别信息已难清晰区分,其中一个重要举措就是引入假名信息(Pseudonymisation)的概念。假名信息就是经过去识别化处理,并将恢复身份的额外信息分开存放的信息。举例而言,“00108,65岁,糖尿病患者”为已去识别化的假名信息,而“00108与张晓明”的对应关系信息则属于恢复身份的额外信息,应分开存放。假名信息由于保留了恢复身份的额外信息,存在识别的可能性,仍属于个人信息,但可享有法律上的一些优待性规定。近期生效的欧盟《通用数据保护条例》为促进假名化处理制定了一系列鼓励性规定。首先,假名信息享有更大的灵活处理空间。个人信息保护制度要求信息的使用必须与信息收集时所明示的使用目的相称(Compatible)。为促进大数据信息二次利用的商业模式,欧盟在《关于目的限定原则的意见》中指出,信息后续使用无需完全符合收集目的,用于不同目的也有可能被视为与收集目的相称,须进行个案分析。而衡量是否相称的其中一个考量因素就是是否已经假名化处理。其次,企业进行假名化处理后更容易达到合规要求,譬如进行假名化处理可视为达到“进行隐私设计及默认保护隐私”的合规要求;对于用于“公共利益、科学、历史或统计目的”的信息,进行假名化处理可视为达到“合理保障措施”的要求。最后,进行假名化处理可免于承担某些合规义务,例如进行假名化处理可视为数据控制者已采用风险管理手段保护数据安全而免于承担信息泄露通知等义务,承诺永久不再识别还可无需回应数据主体访问、修改、删除或携带自身数据的请求。美国学者也肯定了欧盟的路径,认为引入假名化概念并按风险比例承担相应程度的义务能够有效激励数据控制者采取措施降低风险。
在相关性方面,信息也可分为个人敏感信息、个人一般信息、完全无关的信息。个人敏感信息是指“一旦泄露、非法提供或滥用,可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息”,例如银行账号、病史、基因、身份证号、网络账号及密码、性取向等。对于敏感信息,有一系列更高的合规要求,比如收集时需征得用户的明示同意,传输和存储时应采用加密等安全措施,不得随意访问等。
个人信息的风险层级即依据识别性和相关性的程度来确定个人信息的风险程度,已识别的敏感信息风险程度最高,反之匿名化的一般信息则风险程度最低。风险路径就是依据风险程度的高低确立相应的合规义务,考虑数据控制者所采用的保障措施与其可能引发的风险是否相匹配。当风险过高时,数据控制者还应进行专业的隐私风险影响评估(PrivacyImpact Assessment,PIA),采取额外的保障措施。其中,可参考英国“场景中合理使用(Fair Processing)”作为判定是否合规的标准,而欧盟立法中所贯穿的比例原则也体现了这一点。
综上所述,“宽进严控”已成为大数据时代个人信息保护的新兴理念,应对个人信息的“识别性”和“相关性”边界进行最宽泛的界定,以涵盖所有需要保护的信息。同时引入动态的风险路径,根据信息的风险层级高低确立相应的合规义务,从而避免个人信息保护制度因保护范围过宽而难以践行,同时也为数据控制者采取相应的保障措施提供有效激励。
以上文章原载于《学术研究》2019年第3期,文章不代表《学术研究》立场。
篇幅原因有所删减,未经授权不得转载。